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Tóm tắt nội dung 
In this paper, we consider the problem of credit scoring for personal 
customer. 'Phe main statistical tools used to establish credit scoring sys- 
tem are theory of classification and discrimination. Our method is illus- 
trated on the credit customer dataset of a Trade Bank. 


1 Giới thiệu 


Mô hình định mức tín nhiệm thể nhân được đặt ra cách đây 50 năm nhằm xây 
dựng phương pháp lượng hoá khả năng thanh toán và mức độ tín nhiệm của 
khách hàng trong giao dịch. Công tác này giúp các ngân hàng và tổ chức tín 
dụng quyết định có hay không cung cấp các dịch vụ cho khách hàng. Lợi ích 
của mô hình đem lại rất rõ nét, nổi bật là giảm thiểu chỉ phí phân tích thông 
tin (nhất là khi số lượng người sử dụng các dịnh vụ ngân hàng ngày càng lớn); 
giúp đưa ra quyết định nhanh chóng, chính xác và khách quan; giảm thiểu rủi 
ro tín dụng, đảm bảo tối đa việc thu hồi tài chính. 

Một trong các phương pháp tiếp cận mô hình định mức tín nhiệm khách 
hàng là giải quyết bài toán phân tích phân biệt, nhận biết hay là xếp một cá 
thể vào một trong các nhóm khách hàng mà có sự khác nhau tương đối giữa 
các nhóm. Bài toán phân nhóm một tập hợp được PFisher giới thiệu lần đầu 
tiên vào năm 1936 khi tiến hành phân loại đặc tính cây lrit dựa trên số liệu về 
kích thước bên ngoài của cây. David Duran (1941) là người đầu tiên ứng dụng 
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phương pháp đó vào việc phân biệt các khoản nợ tốt và khoản nợ xấu. Sau đó 
nhiều công ty tín dụng đã xây dựng các hình thức sơ khai của hệ thống định 
mức tín nhiệm thể nhân dựa trên các nguyên lý thống kê, và các hệ thống này 
đã nhanh chóng tỏ rõ sức mạnh của nó trong việc giúp các tổ chức tín dụng 
ra quyết định. Sự kiện đánh dấu tầm quan trọng của mô hình định mức tín 
nhiệm thể nhân là việc thông qua đạo luật Cơ Hội Tín Dụng Ngang Bằng ở 
Mỹ năm 1975-1976, nội dung chủ yếu của đạo luật này là cấm sự phân biệt 
đối xử trong việc cấp tín dụng trừ khi nó được chứng minh trên cơ sở thống 
kê. 

Có thể hình dung mô hình như sau. Mỗi khách hàng đến giao dịch xin cấp 
tín dụng sẽ được yêu cầu cung cấp các thông tin bản thân. Thông tin là một 
vector k-chiều (k dấu hiệu) X = (X!,..., X¿) bao gồm các dấu hiệu như tuổi 
tác, trình độ học vấn, mức thu nhập, tình trạng hôn nhân, chênh lệch thu chi, 
dư nợ hiện tại,... Và phương pháp chúng tôi đề xuất (gọi là phương pháp I) 
giải quyết bài toán định mức tín nhiệm thể nhân sẽ bao gồm các bài toán 


1. Xác định các dấu hiệu nên đưa vào để lấy thông tin về khách hàng, nên 
hay không nên đưa vào dấu hiệu nào? 


2. Xây dựng thang điểm cho các dấu hiệu. 


3. Từ mẫu W khách hàng, phân chia thành các nhóm, chẳng hạn "tốt", 
"tốt vừa", "xấu"... Đây chính là nội dung của bài toán phân loại. 


4. Với một khách hàng X, xây dựng quy tắc ra quyết định xếp X vào nhóm 
nào? Và đây chính là nội dung của bài toán phân tích phân biệt. 


Chú ý. Ngoài phương pháp trên, chúng ta có thể xét phương pháp khác (sẽ 
gọi là phương pháp II), mà khác cơ bản phương phấp trên như sau: Bài toán 
1 và 2 như trên và 


3'. Xác định trọng số cho mỗi dấu hiệu, trọng số này đặc trưng cho tầm 
quan trọng của dấu hiệu đó đối với khả năng thanh toán của khách hàng. 
Giả sử đị là trọng số của dấu hiệu X¡, và nếu gọi s(X) là hàm điểm tín 
dụng của khách hàng X = (Ấ,..., X;) thì 


s(X) = điX¡ +... + yX. 


4'.. Xây dựng mô hình ra quyết định tín dụng dựa trên hàm điểm tín dụng 
s(X). 


Với bài toán 1, yêu cầu đầu tiên về các dấu hiệu đưa vào là các dấu hiệu 
không tương quan với nhau, sau đó là yêu cầu đưa vào các dấu hiệu sao cho 
đặc trưng được nhiều nhất thông tin về khả năng tín dụng của khách hàng. 


Sau cùng có thể tính đến các yêu cầu như các dấu hiệu đó giúp khách hàng 
dễ trả lời, ngân hàng dễ chứng thực tính đúng đắn,... Ví dụ tại ngân hàng 
Techcombank các dấu hiệu được đưa vào như: tuổi tác, trình độ học vấn, loại 
hình công việc, mức thu nhập, chênh lệch thu chi, tình trạng hôn nhân, số 
người sống phụ thuộc, nơi cư trú, thời gian cư trú, phương tiện đi lại, phương 
tiện thông tin, uy tín trong giao dịch, quan hệ với Techcombank, dư nợ,... 

Bài toán thứ 2 sẽ rất quan trọng nếu chúng ta xét phương pháp II bởi 
nó ảnh hưởng rất nhiều đến hàm điểm tín dụng s(X) và nó đòi hỏi nhiều kỹ 
thuật phức tạp trong việc lập thang điểm cho mỗi dấu hiệu. Tuy nhiên với 
phương pháp I, bài toán này có lẽ không đòi hỏi các kỹ thuật tỉnh tế lắm, bởi 
ta chỉ cần xác định thang điểm sao cho dẫn đến sự khác nhau tương đối giữa 
các nhóm khách hàng mà sẽ được phân lớp trong bài toán 3. 

Trong các bài toán được đặt ra trên có thể nói bài toán 3 và bài toán 4 
là quan trọng nhất và cũng phức tạp nhất. Trong bài báo này chúng tôi tập 
trung giải quyết hai bài toán đó. 

Cấu trúc bài báo như sau. Mục 2 giải quyết bài toán 3, bài toán phân lớp 
khách hàng. Mục 3 trình bày lời giải bài toán 4: xây dựng quy tắc đánh giá 
mức tín nhiệm khách hàng. Mục 4 trình bày các kết quả tính toán từ dữ liệu 
các khách hàng của ngân hàng Techcombank cùng với một vài nhận xét và 
bình luận. 


2_ Phân lớp khách hàng 


Xét một mẫu gồm khách hàng (cá thể), khách hàng thứ ¡ có vector dấu 
hiệu là XÉ = (Xã,...,Xø#),£=1,...,N: 

Việc phân nhóm các cá thể sẽ được thực hiện dựa trên khái niệm khoảng 
cách đo sự khác nhau giữa các cá thể, ta sẽ ký hiệu đ(2, 7) là khoảng cách giữa 
cá thể thứ ¿ và thứ 7 dựa trên dấu hiệu X#, XỞ) tương ứng. Có nhiều định 
nghĩa cho khoảng cách giữa các cá thể, thường sử dụng các khoảng cách sau: 
Khoảng cách Euclide 


_ 1/2 
đị(?, 7) = tớ — Ä; ì : 


=1 
Khoảng cách thống kê 


. 1/2 
d(,7) = {(X® - xØ)A(x9 - x0)7} 


trong đó A là một ma trận đối xứng xác dịnh dương cấp , và thường được 
chọn là S~† với Š là ma trận hiệp phương sai mẫu. 


khoảng cách định tính 


" 1 
dạ(¿, 7) = TT 


trong đó 


s(, 7) c. ».ñ Xið(X¡ _' X; ) 

>=¡ Xuô(Xa — Xịt) + 33/E\(L— (Xã — Xø)) 
với ð(% — ) = 1 nếu # = g và 0 nếu z # , là hệ số tương tự đo sự gần nhau 
của cá thể ¿ và 7. 
Nhận xét. Khoảng cách dị, da thường được dùng để tính toán cho các dẫu 
hiệu định lượng, còn dạ được dùng với các dấu hiệu định tính. Nếu vector các 
dấu hiệu khách hàng XÉŒ) bao gồm cả các dấu hiệu định lượng và định tính 
thì khoảng cách sẽ là tổng của hai khoảng cách định lượng và định tính. 

Th ký hiệu 

D =(4(,2)):;—t....N 

là ma trận khoảng cách. Có nhiều phương pháp phân lớp dựa trên ma trận 
khoảng cách , như phương pháp phân lớp theo thứ bậc, phương pháp K- 
trung bình. 'Pheo kinh nghiệm của chúng tôi, trong trường hợp này nên dùng 
phương pháp K-trung bình, khi đó các nhóm kết quả nhận được sẽ khác nhau 
tương đối về bản chất, đặc trưng cho các nhóm khách hàng "tốt", "xấu", 

Phương pháp K-trung bình được .J. B. MacQueen đưa ra năm 1967. Thuật 
toán có 3 bước 


1. Phân chia (ngẫu nhiên) các cá thể vào K nhóm. 


2. Tính tâm của từng nhóm. Phân phối lại các cá thể: xếp một cá thể vào 
nhóm có tâm gần nó nhất. Có nhiều khái niệm tâm của nhóm, và thường 
là vector trung bình các dấu hiệu của nhóm, còn khoảng cách thường 
dùng là khoảng cách Euclide. 


3. Lặp lại bước 2 cho đến khi không còn sự phân phối lại các cá thể. 


Một vấn đề đặt ra là khi nào hai lớp được xem là đủ khác nhau? Hay nói 
cách khác, chúng ta cần phải thực hiện bài toán kiểm định sự khác nhau giữa 
các lớp. Xét hai lớp A và với các cá thể của lớp A là 

on s:Š 286) „ 7 —= 1, sex; TỆ] 


và các cá thể của lớp Ö là 


(71. .. jk)› j ¬ ID sex 12, 


Gọi X,Y lần lượt là tâm của nhóm A và Ö: 


Sx.= l2 e)js: 7 =(Eiss+i 0) 


trong đó 
TƯ Tộc 
#ị — — TỊ= — ạnÏ = lv) áh: 
T1 mm T2 j=† 


Đặt 


øq) —= li li s6y s0) = (3t)):¿—1,...k 


lần lượt là ma trận hiệp phương sai mẫu của hai nhóm, trong đó 
1 T1 1 T2 
1 ¬= 2 ti 
Ti nị 2 288)1 — HE), Đ ng 2a VMMj — Đã,: 
I=I I=I 


Xét khoảng cách Hotelling được định nghĩa bởi 
12 —(X_YJTS-1(X-_ V) 


trong đó 





S= : [m,øŒ + nạ). 
7] + Tủ2 
Người ta chứng minh được rằng nếu hai nhóm 4, là một nhóm thì khi m1, ns 
lớn T2 sẽ có phân phối xấp xỉ phân phối xŸ với k bậc tự do. Từ đó ta có quy 
tắc sau: Nếu 72 > x¿(a) thì hai lớp 4, được coi là tách biệt nhau 
một cách cố ý nghĩa. 


3 Phân biệt khách hàng 


Dựa trên kết quả phân lớp trong mục trên, trong mục này chúng tôi giải quyết 
bài toán tiếp theo: Với một khách hàng có vector dấu hiệu z, xây dựng quy 
tắc xếp nhóm cho khách hàng đó. Chúng tôi trình bày hai phương pháp giải 
quyết bài toán đó trong hai mục tương ứng, Mục 3.1 và Mục 3.2. 


3.1 Phương pháp hồi quy với biễn phụ thuộc nhị nguyên 


Giả sử tập các khách hàng được đánh số 1,2,...,N đã được phân chia 
thành 2 nhóm 4 và . Dấu hiệu X; nhận giá trị trong tập hữu hạn ¡ = 
{€n, ©la,..., €m,},Ï = 1,...,k. Nhóm A gồm các khách hàng “tốt”, nhóm Ö 
gồm các khách hàng “không tốt”. Đặt 


_ số cá thể thuộc nhóm 4A 
=———.nn 


là tỉ lệ khách hàng thuộc nhóm 4; 1 — 7 là tỉ lệ khách hàng thuộc nhóm Ö. 
Ta có thể dùng biến Z để đặc trưng cho khách hàng thuộc nhóm 4 hoặc 
nhóm ?Ö: 


đc 1, nếu khách hàng thuộc nhóm 4, 
— |0, nếu khách hàng thuộc nhóm Ö. 


Như vậy khách hàng thứ ¿ sẽ có đặc trưng là Z với 


1, nếu¡€ 4, 
4= cá 
0, nêu¿;€ Ö. 
Giả sử ø = (ZI,#a,...,¿) là véc-tơ dấu hiệu của một khách hàng. Ta cần 
tính xác suất sau: 
T1¿ = l|JA.=#]):<.TIm) (1) 


đây là xác suất khách hàng có vector dấu hiệu z thuộc nhóm A. 
Ta có công thức sau 


P(Z =1).P(X = z|cá thể thuộc nhóm 4) 
An ru. TẮ  ®wn 
— mP(X = rx|A) 

_ P(X =z|A)+(1— m)P(X = z|B)' 


Ti) =< 


trong đó kí hiệu 





P(X =z|A) = P(X = z|cá thể thuộc nhóm 4). 








Có 
#®(Z =u|X =+) =1 - Pứữu): 


Ta mong muốn ước lượng xác suất P(z) dựa trên mẫu (Z;, X),¿ = 1,2,...,N. 
Với các dấu hiệu có giá trị được phân thành từng khoảng (categorical vari- 
ables), người ta thấy rằng P(z) có dạng 


k 
P(z)=1—F(—8”z), với 8 z= Š Thu (3) 
¡=1 


trong đó Ƒ({ø) là hàm phân bố xác suất nào đó, Ø = (đi,..., Ø¿)“ là các tham 
số phải ước lượng. 
Xét mô hình hồi quy phi tuyến sau đây: 


Z¿=1—F(_-8TX#?)+«œ, ¿=1,2,...,N, (4) 


trong đó «;¿ là sai số ngẫu nhiên với ?Z¿ = 0. 


Có thể coi (4) là mô hình thực nghiệm của mô hình lí thuyết sau đây : 
Z=1-F(-8ÏX)+«‹, Ee=0. 


Do đó 





E(2IX)=PZ=1|X)?=1:=K(-5 3]: 





Ta sẽ ước lượng véc-tơ / bằng phương pháp hợp lí cực đại, tức tìm ầ sao cho 


N 
log(6) := À` |Z. log(1T— F(—øTXf))) +(1— Z¿)logF(—ø "x)| (5) 
=1 


đạt giá trị cực đại. 
Các hàm phân bố sau đây thường được dùng trong (4) và (5): 


e Hàm phân bố chuẩn F(z e2 
TÊN) 27 .M 
c1 
e Hàm phân bố logistic F{z) = "mẽ. 
C 


e Hàm phân bố Weibul F{z) = exp(— exp(—)). 


Trong công trình này, chúng tôi sử dụng #' là hàm phân bố logistic vì nó thích 
hợp với các biến rời rạc (categorical variables). 
Sau khi tìm được ước lượng Ø của Ø ta thu được 


P(œ)=1- F(-zT78), (6) 


và, 


&=Z4-P(X), ¡=1,3,...,N ứ) 


là các phần dư. 

Giả sử một phần tử mới có véc-tơ dấu hiệu là X, khi đó ta gán cá thể đó 
vào lớp A nếu P(z) > 0.5 và vào lớp nếu P(z) < 0.5. 

Mỗi nhóm 4 và lại có thể phân thành các nhóm con, ví dụ theo quy tắc 
sau: Gán phần tử có dấu hiệu X vào 


e lớp 4¡ nếu (+) > 0.8 
e lớp 4; nếu 0.65 < P(z) < 0.8 
e lớp 4s nếu 0.5 < P(z) < 0.65 


lớp Bị nếu 0.35 < P(z) < 0.5 


lớp Ö; nếu 0.2 < (+) < 0.35 


e lớp Ös nếu 0< ?(z) < 0.2 
Để đánh giá hiệu năng của quy tắc phân biệt khách hàng, ta tính các đại 
lượng sau 
e Tỷ lệ phân biệt đúng 
— Tỷ lệ cá thể thuộc lớp Ø với P(XÂ)) < 0.5 
— Tỷ lệ cá thể thuộc lớp A với (Xf)) > 0.5 


e Số trung bình các cá thể phân biệt đúng 


— Số trung bình các cá thể thuộc lớp B có P(x0) <0 
— Số trung bình cá thể thuộc lớp 4A với P(X)) > 0.5 


Ta cần vẽ đồ thị các phần dư 8; và kiểm tra xem các phần dư có tương 
quan hay không. 

Để đánh giá sự góp phần của các biến vào xác suất P(z) = 1— F(_—ØTz), 
ta chú ý rằng nếu ƒ(#z) = #”(z) là hàm mật độ của hàm phân bố Ƒ(z) thì 


ØP — 


2ạ, — {(-8”2)8: (8) 





Như vậy, nếu Ø, > 0 thì z; góp phần làm tăng P(z) khi z; tăng. Ngược lại, 
nếu Ø; < 0 thì z;¿ góp phần làm giảm (+) khi z; tăng. 
Hơn nữa, ta có 
9P/0z; Kẻ 8; : 





Do đó tác động của biến z; sẽ cao hơn tác động của biến z; nếu |Ø;| > ||. 

Danh sách các đặc trưng của mỗi khách hàng của Techcombank và các kết 
quả về ước lượng tham số đ và sau đó ước lượng xác suất (+) cũng như việc 
đánh giá hiệu năng của quy tắc phân biệt khách hàng được tổng kết trong 
Mục 4. 


3.2 Thuật toán phân biệt khách hàng với các dấu hiệu định 
tính và định lượng 
Giả sử Xứ) = (Xịi,..., Xz„) là véc-tơ dấu hiệu của khách hàng thứ ¿, với 
¿=1,2,..., 1, trong đó có r thành phần định tính X¡,..., Xz, và có rm — r 
thành phần định lượng X;;„;,..., X;„. Kí hiệu lại 
Y0) =[Äin,v.J Xu} E\( K*5c 1x f,cCR: 
z0 —= QwrLúu A hỰN) sŠzn) ệR”"= RẺ”, 


trong đó s = mm — r. Như vậy 
x0) = (y0), Z0), 
Vì Yf là các dấu hiệu định tính nên tập ; chỉ gồm một số hữu hạn giá trị 


Xi €-Etr ={Ê11;::-¡E1ma} 
Xa € ba = {6aI,-.-; €2ma} 


X>„€ lạ —= 1715 " ‹y ma } 


Giả thiết ZÉ) có phân bố chuẩn s chiều, ZÉ) ~ N;(/, Đ),  € R$;> là ma trận 
xác định dương cấp s x s. Ta kí hiệu nhóm 4 (nhóm khách hàng “tốt”) gồm 
các phần tử có chỉ số 1,2,..., M; (nhóm khách hàng “không tốt”) gồm các 
chỉ số Ä⁄ + 1,...,N. Giả thiết rằng 


e Z) ~ N,(ua,») nếu cá thể thứ ¿ € 4, 
e Zữ) ~ N;(up,>) nếu cá thể thứ ¡ € Ö. 


Đặt z = 'ƒ là tỉ lệ số các khách hàng thuộc nhóm 4. Kí hiệu Y = (Xl,..., X„) 
là biến ngẫu nhiên rời rạc bao gồm các dấu hiệu định tính của khách hàng và 
Z =(X„¿;\,..., X„) là các dấu hiệu định lượng của mỗi khách hàng. 

Gọi C(1|2) là tổn thất gây ra khi gán một phần tử thuộc nhóm Ö vào 
nhóm 44, C(2|1) là tổn thất gây ra khi gán một phần tử thuộc nhóm 4 vào 
nhóm Ö. Hai hằng số này được cho trước, chăng hạn các chuyên gian ngân 
hàng cho rằng C(1|2) = C(|1). 

Giả sử một khách hàng mới đến đăng kí vay tín dụng có dấu hiệu là 
œ = (0,z), với  € E\ x---x E,„,z € R°. Kí hiệu P(Y = |4) là xác suất 
để Y nhận giá trị với điều kiện là khách hàng thuộc nhóm 4 và ƒ(z|Y = 
ụ, 4), ƒ(z|Y = 9.) là mật độ xác suất của thành phần z của véc-tơ dấu hiệu 
z với điều kiện Y = và khách hàng thuộc nhóm 4, B tương ứng. 

Ta giả thiết rằng ƒ(z|Y = 9, 4A), ƒ(z|Y = 9, B) không phụ thuộc ÿ, tức là 


ƒ(lY =w,A) = ƒ&|A). ƒG]Y =,Đ) = ƒG|B), 


trong đó ƒ(z|4) là mật độ của phân bố chuẩn NW;(u4, ») và ƒ(z|B) là mật độ 
của phân bố chuẩn W,(up, 3). 

Quy tắc phân biệt khách hàng như sau : Gán cá thể có dấu hiệu # = (, z) 
vào nhóm 4 khi và chỉ khi 


xPŒ =|A) |4) 
—z)PŒ = y|B) ƒ(Z|B) 








10) 
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Vì xP(Y = 0|4).(1— =)P(Y = 9|Ð), ƒ(z|A), ƒ(z|B) là các hàm chưa biết 
nên ta phải ước lượng chúng bằng cách sau đây. 

Đặt P(w) = P(cá thể € A|Y = y).1-— P(w) = P(cá thể € BỊY = ). 
Theo công thức xác suất hậu nghiệm 
xP(Y = w|A) 


Pụ) = zP(Y = 0|A)+(L—z)P(Y = w|B) vẻ 


Đối với các xác suất hậu nghiệm của biến ngẫu nhiên định tính, người ta hay 
dùng phân bố logistic : 


ÚIA(- P0 HH E' ky), 
1+ exp(Ø®o + Øđi0ì +--- + Ø;w) 


hoặc 


:=Ìn Pụ) =Ìn TU cjÓ) y2 fh† Biện + + Đườn, (12) 


I= P0)” 0p =iIE 
tức là ta có quan hệ hồi quy tuyến tính 
w = Øọ + đl0ì + --- + Örựr. (13) 


Để có các số liệu thực nghiệm dùng để ước lượng các hệ số Ø;,¿ = 0,1,...,r, 
ta tiến hành như sau: 

Sử dụng hồi quy phi tuyến với biến phụ thuộc nhị nguyên để nhận được 
các ước lượng Ø;,¿ = 0,1,...,?z và sau đó ước lượng P(w) của phân bố hậu 
nghiệm (2) (xem (6)), và từ đó ta nhận được ước lượng 


(0) = Øụ + ẩm Mix ni ñ-ụr- (14) 


° 1 ° 
Ty = (MA — mg) “5~”z— SA — up) "5` (MA + Ha): 


Đại lượng này được ước lượng bởi 


^ 


= Ã: = ò2 % -ư^ w 
1(2) = (ñA —Ñp)”S”`z— g(RA — ần)”S”` (RA + ñần), (15) 
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trong đó 
1 M 1 N 
2. -Ì `^z6_ ae (0) 
¡=1 ¿=M+1 
1 Huả in 
SA= TY z0 _ PPETRET 
=1 
1 Ai Tư. 
Spg= " b z0) 70 _ fñbần, 
¿=M~+1 
l1 


Như vậy, quy tắc phân biệt là : Gán phần tử có dấu hiệu # = (,z) vào 
nhóm 4 khi và chỉ khi 


S 
T— 
, 

t 
¬— 





ñ{) + P(z) >In (18) 


S 
~ 
Ko 

— 
— 


trong đó 8() cho bởi (14), f(2) cho bởi (15). 


4_ Kết quả thực hiện 
4.1 Kết quả phân lớp 


Ngân hàng Techcombank lưu dữ liệu của 1727 khách hàng, mỗi khách hàng 
trong mẫu này có các đặc trưng được cho trong bảng 1. 

Với lý thuyết và thuật toán được trình bày trong Mục 2, chúng tôi thực 
hiện tính toán trên phần mềm máy tính và được kết quả sau: W = 1728 
khách hàng được chia thành 2 nhóm: nhóm A (nhóm khách hàng "tốt") có 
mm = 1375 khách hàng, nhóm B (nhóm khách hàng "xấu") có ø = 353 khách 
hàng. Khoảng cách Holtelling tính được là 


TẢ p = 2ï, 30209 


trong khi đó x?¿(0.05) = 26, 296. Như vậy TẢ p > x?¿(0.05) nên hai nhóm A, 
B là khác nhau một cách có ý nghĩa. 


4.2 Các hệ số hồi quy 


Bảng 2 là kết quả thực hiện hồi quy nhị nguyên logistic trên tập mẫu. 
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Tuổi tác 

Trình độ học vấn 

Loại hình công việc 

Thời gian công tác 

Mức thu nhập hàng tháng 
Tình trạng hôn nhân 

Nơi cư trú 

Thời gian cư trú 

Số người sống phụ thuộc 
Phương tiện đi lại 

Phương tiện thông tin 
Chênh lệch thu nhập và chi tiêu 
Giá trị tài sản khách hàng 
Giá trị các khoản nợ 
Quan hệ với Techcombank 
Ủy tín trong giao dịch 


- CC C C 
© ‹@© ởœ ~¬n 





X. 
X. 
X. 
x 
x 
x 
x 
x 
x 
x 





Bảng 1: Các đặc trưng của khách hàng 


4.3 Nhận xét 
Ta có một số nhận xét về xác suất f(z). 


1. Theo bảng 2, ta có 

2À cỗ, 

P(z) =———— 
1+ef”z 

trong đó 


8Tz = —1.238151z — 0.591102za — 1.371960za + 3.240103zz 
— 1.833702zs — 8.070600Z; — 5.336831zg — 1.091686zg — 1.508460z1ọ 
—18.28262z11 +5.670182z12+3.5950302iz—0.930329z14— 1.482391z1z 


2. Từ bảng 3, nếu với quy tắc phân biệt khách hàng là “Gán khách hàng có 
dấu hiệu # vào nhóm 4 khi và chỉ khi P(z) > 0.5” thì tỉ lệ khách hàng 
được phân biệt đúng trong mẫu 1727 khách hàng là 99.25%, đó là tỉ lệ 
rất cao. 


3. Từ bảng 4, nếu coi khách hàng có dấu hiệu z sẽ thuộc vào nhóm 4¡ nếu 
P(z) > 0.8 thì trong số 1727 khách đến Techcombank có 1374 khách, 
chiếm 99.2% khách hàng của nhóm A. 


Variable 


XUI 
X02 
X03 
X05 
X06 
XU7 
X08 
X09 
X10 
XI 
X12 
X13 
X14 
X15 


Mean dependent var 
S.E. OŸ regression 
Sum squared resid 
Log likelihood 

Avg. log likelihood 


Obs with Dep=0 
Obs with Dep=l 


Coefficlent 


-1.238151 
-0.591102 
-1.371960 

3.240103 
-1.833702 
-8.070600 
-0.J36831 
-1.091686 
-1.508460 
-18.28262 

9.670182 

3.995030 
-0.930329 
-1.482391 


0.795999 
0.069900 
8.369664 
-25.0)998 
-0.014789 


J5ở 
1874 


Std. Error 


0.547258 
0.459765 
0.816572 
0.829665 
0.767204 
2.204372 
1.517704 
0.4/8159 
0.636312 
4.999995 
1.227062 
0.832310 
0.429528 
0.798689 


z-Statistic 
-2.262462 
-1.285661 
-1.680147 
3.905315 
-2.390109 
-3.661180 
-3.516385 
-2.2835102 
-2.370628 
-3.0974486 
4.620942 
4.319343 
-2.165932 
-1.856030 


S.D. dependent var 

A kaike infÍo criterion 
Schwarz criterion 
Hannan-Quimn criter. 


'Total obs 


Prob. 


0.0237 
0.1986 
0.0929 
0.0001 
0.0168 
0.0003 
0.0004 
0.0224 
0.0178 
0.0001 
0.0000 
0.0000 
0.0303 
0.0634 
0.403380 
0.045790 
0.090005 
0.062146 


1727 


Bảng 2: Các hệ số hồi quy với biến phụ thuộc nhị nguyên 


96.03% tổng số khách hàng thuộc nhóm Ö. 
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. Từ bảng 5, có khoảng 339 khách hàng thuộc nhóm ; và Ös, chiếm 


. Nếu ta chỉ sử dụng 1300 khách hàng trong số 1374 khách hàng của nhóm 


A và 326 khách hàng trong số 355 khách hàng của nhóm Ö, số còn lại 


dùng để kiểm tra hiệu năng của thuật toán, thì ta thu được kết quả như 


Bảng 6. 


. Phần dư 8, = 1,2,. 


..› 1727 tỏ ra gần như là sai số ngẫu nhiên. 


. Trong mô hình hồi quy với biến phụ thuộc nhị phân, ta đã loại 2 biến 


X¿ (thời gian công tác) và X1s (uy tín trong giao dịch) ra khỏi mô hình 


vì hai lí do sau: 


e X¿, Xis có sự phụ thuộc tuyến tính với các biến khác 


e Các ước lượng Ø, 2s trong mô hình 16 biến tỏ ra không ổn định. 


P(Dep = 1) < ỞC 
P(Dep = 1) > C 
Total 

Correct 

% Correct 

% Incorrect 
Total GainF 
Percent Gain** 


E#(# of Dep = 0) 
E(# of Dep=l) 
Total 

Correct 

% Correct 

% Incorrect 
Total Gain 
Percent Gain** 


Estimated Equation 


Dep=0  Dep=l Total 
346 6 352 
ĩ 1368 1375 
353 1374 1727 
346 1368 1714 
98.02 99.56 99.25 
1.98 0.44 0.75 
98.02 -0.44 19.69 
98.02 NA 96.32 
Estimated Equation 
Dep=0  Dep=l Total 
344.45 757 352.01 
855 1366.43 1374.99 
353.00 1374/00 1727.00 
344.45 1366.43 1710.88 
97.58 99.45 99.07 
2.42 0.55 0.93 
77.14 19.89 31.59 
96.95 97.31 97.13 
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Constant Probability 


Dep=U  Dep=l Total 
0 0 0 

353 1374 1727 
353 1374 1727 

0 1374 1374 

0.00 100.00 79.56 
100.00 0.00 20.44 


Constant Probability 


Dep=0  Dep=l Total 
7215 280.85 353.00 
280.65 1093.15 1374.00 
353.00 1374/00 1727.00 
7215 109315 1165.31 
20.44 79.56 67.48 
79.56 20.44 32.52 


*Change in “% Correct” from default (constant probability) specification 
**Percent of incorrect (default) prediction corrected by equation 


Bảng 3: Prediction Evaluation (success cutoff Œ = 0.5) 


8. Do tập mẫu gồm 1727 khách hàng đã được phục vụ bởi Techcombank 
chưa đủ lớn và đã được chọn lựa nên hai nhóm 4, B phân biệt khá rõ. 
Nếu ta mở rộng tập mẫu thì có thể kết quả không còn được hiệu quả 
như trước. Bảng 7 là kết quả thực hiện thuật toán phân nhóm với dữ 
liệu vào chính là tập mẫu. Ta có nhận xét rằng hầu hết số khách hàng 
tốt thuộc nhóm 4 (nhóm tốt nhất), và hầu hết số khách hàng không 
tốt thuộc nhóm Ö (nhóm xấu nhất). 


Tài liệu 


[1] Báo cáo Giai đoạn I Nghiên cứu khảo sát lý thuyết uà thực tiễn đánh giá 
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P(Dep = 1) < ỞC 
P(Dep = 1) > C 
Total 

Correct 

% Correct 

% Incorrect 
Total GainF 
Percent Gain** 


E#(# of Dep = 0) 
E(# of Dep=l) 
Total 

Correct 

% Correct 

% Incorrect 
Total Gain 
Percent Gain** 


Estimated Equation 


Dep=0  Dep=l Total 
351 11 362 
2 1363 1365 
353 1374 1727 
351 1363 1714 
99.43 99.20 99.25 
0.57 0.80 0.75 
-0.57 99.20 78.81 
NA 99.20 99.05 
Estimated Equation 
Dep=0  Dep=l Total 
344.45 757 352.01 
855 1366.43 1374.99 
353.00 1374/00 1727.00 
344.45 1366.43 1710.88 
97.58 99.45 99.07 
2.42 0.55 0.93 
77.14 19.89 31.59 
96.95 97.31 97.13 


lỗ 


Constant Probability 


Dep=U  Dep=l Total 
353 1374 1727 

0 0 0 

353 1374 1727 
353 0 353 
100.00 0.00 20.44 
0.00 100.00 79.56 


Constant Probability 


Dep=0  Dep=l Total 
7215 280.85 353.00 
280.65 1093.15 1374.00 
353.00 1374/00 1727.00 
7215 109315 1165.31 
20.44 79.56 67.48 
79.56 20.44 32.52 


*Change in “% Correct” from default (constant probability) specification 
**Percent of incorrect (default) prediction corrected by equation 


Bảng 4: Prediction Evaluation (success cutoff Œ = 0.8) 


[3| A. Aggarawal, Categorical data œnalusis, Wiley, New York, 1990. 1.2.1 


[4| H.T. Albright, Construction oŸ a polUnormmial classifier [or consumer loan 
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[B| F. Black and M. Scholes, The pricing oŸ options and corporate liabilities. 
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dnd regresston trees, Wadsworth, Belmont, CÁ, 1984. 1.2.2 
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P(Dep = 1) < ỞC 
P(Dep = 1) > C 
Total 

Correct 

% Correct 

% Incorrect 
Total GainF 
Percent Gain** 


E#(# of Dep = 0) 
E(# of Dep=l) 
Total 

Correct 

% Correct 

% Incorrect 
Total Gain 
Percent Gain** 


Estimated Equation 


Dep=0  Dep=l Total 
339 3 342 
14 1371 1385 
353 1374 1727 
339 1371 1710 
96.03 99.78 99.02 
3.97 0.22 0.98 
96.03 -0.22 19.46 
96.03 NA 95.18 
Estimated Equation 
Dep=0  Dep=l Total 
344.45 757 352.01 
855 1366.43 1374.99 
353.00 1374/00 1727.00 
344.45 1366.43 1710.88 
97.58 99.45 99.07 
2.42 0.55 0.93 
77.14 19.89 31.59 
96.95 97.31 97.13 
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Constant Probability 


Dep=U  Dep=l Total 
0 0 0 

353 1374 1727 
353 1374 1727 

0 1374 1374 

0.00 100.00 79.56 
100.00 0.00 20.44 


Constant Probability 


Dep=0  Dep=l Total 
7215 280.85 353.00 
280.65 1093.15 1374.00 
353.00 1374/00 1727.00 
7215 109315 1165.31 
20.44 79.56 67.48 
79.56 20.44 32.52 


*Change in “% Correct” from default (constant probability) specification 
**Percent of incorrect (default) prediction corrected by equation 


Bảng ð: Prediction Evaluation (success cutoff Œ = 0.3) 


[9| C. Carter and J. Catlett, Assessing credit card applications usứng rna- 
chữne learnzng, [EEEB Expert, 2:71-79, 1987. 1.2.2 


[10 R. A. Jonhson, D. W. Wichern, Appled Multiuariate Statistical Analsis, 


1998. 





[1| Cred¿t Scoring and Credit Control, Edited by L.Ơ. Thomas, J.Ñ. Crook, 
D.B. Edelman, 1992. 


17 


Số khách hàng với Z =0 | Số khách hàng với Z = 1 
2 


74 
PŒ =1) >05 27 0 
Tỉ lệ đúng 27/20 74/74 
TỶ lệ sai 2/29 0 


Bảng 6: Hiệu năng của thuật toán 


P(Z =1) <05 





Lớp Số khách hàng 
Ái 1565 
A› b 
Bị lộ 
TP) 6 
Bà 339 
Tổng 1727 


Bảng 7: Kết quả phân nhóm trên tập mẫu 





250_ 500 750 1000 1250 1500 
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Hình 1: Residual — Actual — Fitted graph 
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Autocorrelation  Partial Correlation AC PAC Q-Stat  Prob 
+ * 1 0.084 0.084 9.9237 0.002 
2 0.015 0.009 10.263 0.006 

3 0.016 0.014 10.637 0.014 

4 0.021 0.019 11.279 0.024 

5 0.014 0.010 11.539 0.042 

6 0.036 0.034 13.382 0.037 

7 0.045 0.039 16.292 0.023 

8 0.030 0.022 17.609 0.024 

9 0.031 0.025 19.019 0.025 

10 0.036 0.029 20.882 0.022 

& Mỹ 11 0.146 0.159 51.269 0.000 
12 0.011 -0.016 51.431 0.000 

13 0.014 0.008 51.720 0.000 

14 0.026 0.017 52.660 0.000 

15 0.012 0.001 52.883 0.000 

16 0.045 0.0359 55.347 0.000 

17 0.061 0.043 61.167 0.000 

18 0.022 0.000 61.870 0.000 

19 0.003 -0.009 61.881 0.000 

20 0.030 0.019 63.153 0.000 

£ * 21 0.090 0.078 74.695 0.000 
22 0.051 0.015 78.415 0.000 

23 0.047 0.037 81.644 0.000 

24 0.014 -0.003 81.927 0.000 

25 0.005 -0.009 81.961 0.000 

26 0.010 0.004 82.118 0.000 

27 0.013 -0.008 82.360 0.000 

28 0.002 -0.022 82.365 0.000 

29 0.034 0.025 34.088 0.000 

30 0.016 0.002 84.465 0.000 

31 0.055 0.040 88.776 0.000 

32 0.013 -0.022 89.024 0.000 

33 0.024 0.011 89.882 0.000 

344 0.016 -0.003 90.243 0.000 

35 0.008 0.001 90.331 0.000 

346 0.009 0.005 90.453 0.000 














Bảng 8: Correlogram of standardized residuals 


